Nagy nyelvi modellek és beszédfelismerési modellek integrálása (Integration of LLM's and speech recognition models)
A természetes beszéd automatikus szöveggé konvertálása még mindig jelentős kihívás, ha a beszélők szétválasztása, az írásjelezés, névelemek tag-elése, az idegen nyelvű kifejezések felismerés és a zajban is nagy pontosság a követelmények között van. Noha a klasszikus/neurális nyelvmodellek alkalmazása alapvetőnek számít ezen a területen, a (nagyon) nagy nyelvi modellek (LLM-ek, pl. GPT-4, ChatGPT, LLAMA, BARD, stb.) felhasználása egyáltalán nem magától értetődő. A hallgató feladat feltárni a közvetlen, beszéd-szöveg konverziót segítő és az utólagos (pl. korrekciós) LLM alkalmazásokat. A téma diplomatervig - és azon túl is - továbbvihető.
Kulcsszavak: LLM, deep learning, beszéd-szöveg átalakítás
Budapesti Műszaki és Gazdaságtudományi Egyetem (BME) Távközlési és Mesterséges Intelligencia Tanszék (TMIT) 1117, Budapest, Magyar tudósok körútja 2. tel: (1) 463-2448; fax: (1) 463-3107 email: titkarsag@tmit.bme.hu